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Abstract of DE4416881 

In connection with a data processing device, in 
which an integrated circuit (chip) (called a data 
flow processor - DFP - below) is provided with 
many cells, which in particular are arranged 
orthogonally to each other, are 
homogeneously structured and each have 
several logically similar and structurally 
identically arranged components, and the cells 
are connected to input/output connections of 
the integrated circuit by row and column, 
possibly combined into groups, according to 
the invention the cells have a load logic, via 
which they are programmable (configurable) 
individually and possibly combined into 
groups, in such a way that any logical 
functions and/or networkings with each other 
can be verified, specifically in such a way that 
the DFP configuration can be manipulated 
during operation (or at run time), i.e. functional 
parts (MACROS) of the DFP can be modified, 
without the necessity of stopping other 
functional parts or affecting their function. 
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Prufungsantrag gem. § 44 PatG 1st gestellt 
(S) Datenverarbeitungseinrichtung 

@ In Verbindung mit einer Datenverarbeitungseinrichtung, 
wobei ein (im folgenden DatenfluBprozessor - DFP - genann- 
ter) Integrierter Schaltungskreis (Chip) mit einer Vielzahl 
insbesondere orthogonal zueinander angeordneter homogen 
strukturierter Zellen mit je einer Mehrzahl jeweils logisch 
gleicher und strukturell identisch angeordneter Bausteine 
vorgesehen ist, dessen Zellen zeilen- und spaltenweise, 
gegebenenfalls gruppenweise zusammengefa&t, mit Ein- 
/Ausgangsanschlussen des integrierten Schaltkreises ver- 
bunden sind, ist erfindungsgemaS den Zellen eine Ladelogik 
zugeordnet, uber die sie je fur sich und gegebenenfalls 
gruppenweise zusammengefaSt so programmierbar (konfi- 
gurierbar) sind, daS beliebige logische Funktionen und/oder 
Vernetzungen untereinander verifizierbar sind, und zwar 
derart, dad eine Manipulation der DFP-Konfiguration wah- 
rend des Betriebes (oder zur Laufzeit), d. h. die Modtfikation 

J funktioneiler Teile (MACROS) des DFPs erfolgen kann, ohne 
daS andere funktionelle Teile angehalten warden miissen 

- oder in ihrer Funktion beeintrachtigt werden. 
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Beschreibung 

Die vorliegende Erfindung bezieht sich auf eine Da- 
tenverarbeitungseinrichtung, d. h. eine Hardwareeinheit 
zur logischen Manipulation (Verknupfung) von in binfi- 5 
rer Form vorliegenden Daten (Informationen). 

Derartige Datenverarbeitungseinrichtungen sind 
mittlerweile lange bekannt und sie haben bereits breite 
Anwendung und Anerkennung gefunden. Die prinzipiel- 
le Aufbau- und Arbeitsstruktur der bekannten Daten- 10 
verarbeitungseinrichtungen ist in etwa so zu definieren, 
daB eine arithmetisch-logische Verkniipfungseinheit 
vorgesehen ist, in der die zu verknQpfenden Daten einer 
programmtechnisehen Anweisung (Software) zufolge 
verarbeitet werden. Die Daten werden dabei Uber ein 15 
Steuerwerk in mehr oder weniger komplexen Adressie- 
rungsvorgangen entsprechend abgerufen und zun£chst 
in Arbeitsregistern bereitgestellt; nach der logischen 
VerknQpfung werden dann die neuen Daten in einer 
vorgegebenen Speicherstelle wieder abgelegt Die 20 
arithmetisch-logische Verkniipfungseinheit besteht da- 
bei aus logischen VerknOpfungsbausteinen (Gatter, 
Glieder), die jeweils so miteinander gekoppelt sind, daB 
die zu manipulierenden Daten der zugrunde Uegenden 
Software entsprechend den vier Grundrechenarten ge- 25 
maB logisch verarbeitet werden. 

Es ist leicht nachzuvollziehen, daB auf der Basis der 
bekannten Strukturen relativ viel Rechenzeit dafiir er- 
forderlich ist, die zu manipulierenden Daten auszulesen, 
und die Arbeitsregister zu uberfuhren, den spezifischen 30 
Logikbausteinen in der arithmetisch-logischen Ver- 
kniipfungseinheit zuzuleiten und schlieBlich wieder ab- 
zuspeichern. Es ist ferner einsichtig, daB die Hardware- 
Struktur der arithmetisch-logischen VerknQpfungsein- 
heit insoweit nicht als optimal betrachtet werden kann, 35 
als schlieBlich die hardwaremaBig vorhandenen inte- 
grierten logischen Bausteine stets nur in ein und dersel- 
ben Art und Weise im Gesamtsystem aktiv benutzt wer- 
den. Ebenso wird durch strikte Hardwarevorgabe ein 
Aneinanderreihen von Funktionen in sogenannten Pipe- 40 
lines sehr erschwert oder eingeschrSnkt, was zwangs- 
laufig ein haufiges Registerumladen zwischen Arbeits- 
registern und Rechenwerk bedeutet. Derartige Baustei- 
ne sind des weiteren nur schlecht kaskadierbar und er- 
fordern dann sehr viel Programmierarbeit 45 

Ein zusatzlicher Vorteil der vorliegenden Erfindung 
liegt darin, daB eine Qber einen weiten Raum skalierbare 
Parailelitat zur Verfugung steht Hierbei wird eine Basis 
zum schnellen und flexiblen Aufbau von neuronalen 
Strukturen geschaffen, wie die bis dato lediglich mit 50 
erheblichem Aufwand simuliert werden konnen. 

Die der vorliegenden Erfindung zugrunde liegende 
Aufgabe besteht darin, eine im folgenden DatenfluBpro- 
zessor (DFP) genannte Datenverarbeitungseinrichtung 
anzugeben, bei der eine hohere beziehungsweise besse- 55 
re Flexibility der Gesamtstruktur und des Datenflusses 
sowie der Pipelining- und Kaskadiermoglichkeiten zu 
einer Erhohung der Rechnerbeziehungsweise Verknup- 
fungsleistung fQhrt. 

AuBer dem Einsatz als reiner DatenfluBprozessor, 60 
soli der DFP folgende weitere Aufgaben erfOUen kfln- 
nen: 

— Einsatz als universeller Baustein zum Aufbau 
von herkommlichen Rechnern, wobei der Aufbau 65 
einfacher und billiger werden solL 

— Einsatz in neuronalen Netzen. 
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Diese Aufgabe wird dadurch gelost, daB ein integrier- 
ter Schaitkreis (Chip) mit einer Vielzahl insbesondere 
orthogonal zueinander angeordneter Zellen mit je einer 
Mehrzahl jeweils logisch gleicher und strukturell iden- 
tisch angeordneter Zellen vorgesehen ist deren Anord- 
nung, sowie die interne Busstruktur, zur Erleichterung 
der Programmierung auBerst homogen ist Dennoch ist 
es denkbar innerhalb eines DatenfluBprozessors Zellen 
mit verschiedenen Zellogiken und Zellstrukturen unter- 
zubringen, urn so die Leistungsfahigkeit zu erhdhen, in- 
dem zum Beispiel fur Speicheransteuerungen andere 
Zellen als fur arithmetische Opera tionen existieren. Ins- 
besondere kann fQr neuronale Netze eine gewisse Spe- 
zialisierung von Vorteil sein. Den Zellen ist eine Ladelo- 
gik zugeordnet, iiber die die Zellen je filr sich und gege- 
benenfalls gruppenweise in sogenannte MACROs zu- 
sammengefaBt so programmierbar sind, daB einerseits 
beliebige logische Funktionen, andererseits aber auch 
die Verknupfung der Zellen untereinander in weiten 
Bereichen verifizierbar sind Dies wird erreicht indem 
jeder einzelnen Zelle ein gewisser Speicherplatz zur 
Verftlgung steht, in dem die Konfigurationsdaten abge- 
legt sind. Anhand dieser Daten werden Multiplexer oder 
Transistoren in der Zelle beschaltet urn die jeweilige 
Zellfunktion zu gewahrleisten (siehe Fig. 1 2). 

Mit anderen als im Patentanspruch 1 gebrauchten 
Worten besteht der Kern der vorliegenden Erfindung 
darin, einen DatenfluBprozessor vorzuschlagen, der zel- 
lular aufgebaut ist und dessen Zellen uber eine externe 
Ladelogik im arithmetisch-logischen Sinne quasi belie- 
big neu konfiguriert werden konnen. Dabei ist es von 
auBerster Notwendigkeit, daB die betreffenden Zeilen 
einzeln und ohne Beeinflussung der ubrigen Zeilen oder 
gar einer Stillegung des gesamten Bausteins umkonf igu- 
riert werden konnen. Der DatenfluBprozessor gemaB 
der vorliegenden Erfindung kann so wahrend eines er- 
sten Arbeitszyklus als Addierer und wahrend eines sp&- 
teren Arbeitszyklus als Multiplizierer "programmierf 
werden, wobei die Anzahl der fur die Addition bezie- 
hungsweise die Multiplikation erforderlichen Zellen 
durchaus unterschiedlich sein konnen. Dabei bleibt die 
Plazierung der bereits geladenen MACROs erhalten; 
der Ladelogik beziehungsweise dem Compiler obliegt 
es, das neu zu ladende MACRO innerhalb der freien 
Zellen zu partitionieren (d. h. das zu ladende MACRO 
so zu zerlegen, daB es sich optimal einfiigen laBt). Die 
Ablaufsteuerung des Programms wird dabei von der 
Ladelogik ubernommen, indem sie gemaB dem momen- 
tan ausgefiihrten Programmabschnitt die entsprechen- 
den MACROs in den Baustein ladt, wobei der Ladevor- 
gang von der spater beschriebenen Synchronisationslo- 
gik mitgesteuert wird, indem sie den Zeitpunkt des Um- 
ladens festlegt Daher entspricht der DFP nicht der be- 
kannten von-Neumann-Architektur, da die Daten- und 
Programmspeicher getrennt sind. Dies bedeutet jedoch 
gleichzeitig eine hdhere Sicherheit, da fehlerhafte Pro- 
gramme keinen CODE, sondern lediglich DATEN zer- 
storen konnen. 

Urn den DatenfluBprozessor eine arbeitsfahige Struk- 
tur zu geben, werden einige Zellen, und zwar unter an- 
derem die Eingabe-/Ausgabefunktionen (I/O) und Spei- 
chermanagementfunktionen vor dem Laden der Pro- 
gramme geladen und bleiben fur gewdhnlich wahrend 
der gesamten Laufzeit konstant. Dies ist erforderlich um 
den DatenfluBprozessor an seine Hardwareumgebung 
anzupassen. Die Qbrigen Zellen werden zu sogenannten 
MACROs zusammengefaBt und konnen wahrend der 
Laufzeit nahezu beliebig und ohne Beeinflussung der 
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Nachbarzellen umkonfiguriert werden. Dazu sind die a) Nur die lokalen Verbindungen zwischen den Zel- 

Zellen einzeln und direkt adressierbar. len werden herausgefuhrt, was im vorliegenden 

Urn die Umstrukturierung (das Umladen) der Zelien Beispiel zwei 10- Pins pro Kantenzelle und vier 10- 

oder MACROs mit der Ladelogik zu synchronisieren, Pins pro Eckzelle bedeutet Allerdings hat der 

kann - wo notwendig, da nur Umgeladen werden darf, 5 Compiler/Programmierer zu beachten, dafl die glo- 

wenn die MACROs mit ihrer alten Tatigkeit fertig sind balen Verbindungen nicht herausgefuhrt werden, 

— eine Synchronisationsschaltung ais MACRO auf dem wodurch die Kaskadiemng nicht vollstSndig homo- 

DatenfluBprozessor untergebracht werden, die die ent- gen ist (Globale Verbindungen zwischen mehreren 

sprechenden Signale an die Ladelogik absendet Hierzu Zellen, fur gewohnlich zwischen einer kompletten 

kann eventuell eine Modifikation der gewdhnlichen to Zellenreihe Oder -spalte — siehe Fig. 6 - ; lokaie 

MACROs von Nttten sein, da diese dann der Synchroni- Verbindungen existieren nur zwischen zwei Zellen). 

sations-Schaltung Zustandsinformationen zur Verfu- Fig. 16a zeigt den Aufbau innerhalb eines DFPs, 

gung stellen miissen. Fig. 17a zeigt die daraus resultierende Kaskadie- 

Diese Zustandsinformationen signalisieren der Syn- ning von mehreren DFPs (drei gezeichnet). 

chronisationslogik fflr gewflhnlich, daB einzelne MA- 15 b) Die lokalen und globalen Verbindungen werden 

CROs ihre Aufgabe erledigt haben, was aus program- herausgeftihrt, was die Anzahl der benotigten Trei- 

miertechnischer Sicht zum Beispiel die Terminierung ber/IO-Pins und Leitungen drastisch erhdht, in un- 

einer Prozedur oder das Erreichen der Terminierungs- serem Beispiel auf sechs IO-Pins pro Kantenzelle 

bedingung einer Schleife bedeuten kann. DJi. das Pro- und zwolf 10-Pins pro Eckzelle. Dadurch ist eine 

gramm wird an einer anderen S telle fortgesetzt und die 20 vollstandige Homogenitat bei der Kaskadiemng 

die Zustandsinformation absendenden MACROs k6n- gegeben. 
nen umgeladen werden. Zudem kann es von Interesse 

sein, daB die MACROs in einer bestimmten Reihenfolge Da die globalen Verbindungen insbesondere bei Ver- 

umgeladen werden. Hierzu kann eine Wertung der ein- wendung der Kaskadierungstechnik b) sehr lang wer- 

zelnen Synchronisations-Signaie durch einen Prioritats- 25 den k6nnen, kann der unangenehme Effekt auftreten, 

dekoder erfolgen. Eine derartige — einfache — Logik daB die Zahl der globalen Verbindungen nicht ausreicht, 

ist in Fig. 13 gezeichnet. Die Logik besitzt sieben Ein- da bekanntlich jede Verbindung nur von einem Signal 

gangssignale durch die die sieben MACROs ihre Zu- genutzt werden kann. Urn diesen Effekt zu minimieren, 

standsinformation abgeben. In diesem Fall soil 0 fQr "in kann nach einer gewissen Lange der globalen Verbin- 

Arbeit" und 1 fur "fertig" stehen. Die Logik besitzt drei 30 dungen ein Treiber eingeschleift werden. Der Treiber 

Ausgangssignale, die an die Ladelogik gefuhrt werden, hat zum einen eine Verstarkung des Signals zur Aufga- 

wobei der Zustand 000 als Ruhezustand gilt Liegt ein be, die bei Iangen Strecken und entsprechend hohen 

Signal an einem der sieben Eingange an, so findet eine Lasten, unbedingt erforderlich ist; zum anderen kann 

Dezimal-Binar-Umsetzung statt, so wird zum Beispiel der Treiber in Tristate gehen und damit das Signal un- 

Sync6 als 1 10 dargestellt, was der Ladelogik anzeigt, daB 35 terbrechen. Dadurch k6nnen die Abschnitte links und 

das MACRO, welches Sync6 bedient, seine Aufgabe be- rechts, beziehungsweise oberhalb und unterhalb des 

endet hat Liegen gleichzeitig mehrere Synchronisa- Treibers von verschiedenen Signalen genutzt werden, 

tions-Signale am Eingang an, so gibt die Synchronisa- sofern der Treiber in Tristate ist, ansonsten wird ein 

tionsschaltung das Signal mit der hdchsten Prioritat an Signal durchgeschleift Wichtig ist hierbei, daB die Trei- 

die Ladelogik weiter; liegen zum Beispiel SyncO, Sync4 40 ber der einzelnen globalen Leitungen auch einzeln an- 

und Sync6 an, so reicht die Syncronistaions-Schaltung gesteuert werden kfcnnen, d h. ein globales Signal kann 

zun&chst Sync6 an die Ladelogik weiter. Nachdem die unterbrochen sein, das Nachbarsignal ist jedoch durch- 

entsprechenden MACROs umgeladen sind und somit geschleift Somit kdnnen auf einer globalen Verbindung 

Sync6 nicht mehr anliegt wird Sync4 weitergeleitet usw. durchaus abschnittweise verschiedene Signale anliegen, 

Zur Verdeutlichung dieses Prinzips kann der Standard- 45 wahrend die globale Nachbarverbindung tatsachlich 

TTL-Baustein 74148 in Betracht gezogen werden. global von ein und demselben Signal verwendet wird 

Ober die Ladelogik kann der DatenfluBprozessor je- (vergleiche Fig. 22). 

weils optimal und gegebenenfalls dynamisch auf eine zu Zur besseren Kommunikation zwischen den Daten- 

Idsende Aufgabe eingestellt werden. Damit ist zum Bei- fluBprozessoren und der Ladelogik konnen sogenannte 

spiel der groBe Vorteil verbunden, daB neue Normen 50 Shared- Memories eingesetzt werden. So konnen zum 

oder dergleichen einzig und aJlein durch eine Umpro- Beispiel Programme von einer Festplatte,die im IO-Be- 

grammierung des DatenfluBprozessors umgesetzt wer- reich eines DatenfluBprozessors liegt zur Ladelogik 

den kdnnen und nicht — wie bisher - einen Austausch durchgereicht werden, indem die DatenfluBprozessoren 

mit entsprechendem Anfall von Elektronikschrott be- die Daten von der Platte in den Shared-Memory schrei- 

dingea 55 ben und die Ladelogik sie dort abholt. Dies ist besonders 

Die DatenfluBprozessoren sind untereinander kaska- wichtig, da hier, wie bereits erwahnt, keine von-Neu- 

dierbar, was zu einer beinahe beliebigen Erhdhung des mann- sondern eine Harvardarchitektur vorliegt Eben- 

Parallelisierungsgrades, der Rechenleistung, sowie der so sind die Shared-Memories von Vorteil, wenn Kon- 

NetzgroBe in neuronalen Netzen fUhrt. Besonders wich- stanten, die im Programm — das im Speicherbereich der 

tig ist hier eine klare homogene Verbindung der Zellen eo Ladelogik liegt — definiert sind, mit Daten — die im 

mit den Ein-/Ausgangs-Pins (IO-Pin) der DatenfluBpro- Speicherbetrieb der DatenfluBprozessoren liegen — 

zessoren, urn mdglichst keine Einschrankungen auf die verknOpft werden sollen. 

Programme zu haben. Weiterbildungen der vorstehend definierten und um- 

In Fig. 14 ist zum Beispiel die Kaskadierung von vier schriebenen Erfindung sind Gegenstand der Unteran- 

DFPs gezeigt. Sie erscheinen der Umgebung wie ein 65 sprttche. 

groBer homogener Baustein (Fig. 15). Prinzipiell sind Eine besondere Verwendung des erf indungsgemaBen 

damit zwei Kaskadierungsmethoden denkbar: DatenfluBprozessors ist darin zu sehen, daB er in Ver- 
bindung mit geeigneten Ein-/Ausgabe-Einheiten einer- 
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seits und einem Speicher andererseits die Basis fUr einen 
kompletten (komplexen) Rechner bilden kann. Dabei 
kann ein GroBteil der IO-Funktionen als MACROs auf 
dem DatenfluBprozessor implementiert werden und es 
brauchen momentan lediglich Spezialbausteine (Ether- 5 
net-Treiber, VRAMS . . . ) extern zugefflgt zu werden. 
Bei einer Normanderung oder Verbesserung muB dann 
wie bereits angedeutet nur das MACRO softwareseitig 
gewechselt werden; ein Eingriff in die Hardware ist 
nicht notwendig. Es bietet sich hier an, einen IO-(Einga- 10 
be-/Ausgabe-) Stecker festzulegen, ttber welchen dann 
die Zusatzbausteine angeschlossen werden kfinnen. 

Fig. 20 zeigt den stark vereinfachten Aufbau eines 
heute Qblichen Rechners. Durch den Einsatz eines DFP- 
Bausteins kdnnen erhebliche Teile eingespart werden 15 
(Fig. 21), wobei die entsprechenden herkflmmlichen 
Baugruppen (CPU, Speicherverwaltung, SCSI-, Tasta- 
tur- und Videointerface, sowie der parallelen und seriel- 
len Schnittstellen) als MACROs in die kaskadierten 
DFPs abgelegt werden. Nur die durch einen DFP nicht 20 
nachbildbaren Teile wie Speicher und Leitungstreiber 
mit nicht TTL-Pegeln oder fflr hohe Lasten mussen ex- 
tern zugeschaltet werden. Durch die Verwendung des 
DFPs ist eine gflnstige Produktion gegeben, da ein und 
derselbe Baustein sehr haufig verwendet wird, das Lay- 25 
out der Platine ist durch die homogene Vernetzung ent- 
sprechend einfach. Zudem wird der Aufbau des Rech- 
ners durch die Ladelogik bestimmt, die hier fur gewohn- 
Itch nur zu Beginn der Abarbeitung (nach einem Reset) 
das DFP-Array ladt, wodurch eine gUnstige Fehlerkor- 30 
rektur- und ErweiterungsmGglichkeit gegeben ist Ein 
derartiger Rechner kann insbesondere mehrere ver- 
schiedene Rechnerstrukturen simulieren, indem einfach 
der Aufbau des zu simulierenden Rechners in das DFP- 
Array geladen wird. Zu bemerken ist, daB hierbei der 35 
DFP nicht in seiner Funktion als DFP arbeitet sondern 
lediglich ein hochkomplexes und frei programmierbares 
Logikarray zur Verfugung stellt, sich hierbei jedoch von 
herkommlichen Bausteinen in seiner besonderen guten 
Kaskadierbarkeit unterscheidet 40 

Ein weiteres Einsatzgebiet des Bausteins ist der Auf- 
bau groBer neuronaler Netze. Sein besonderer Vorzug 
liegt hierbei in seiner hohen Gatterdichte, seiner ausge- 
zeichneten Kaskadierbarkeit, sowie seiner Homogeni- 
tat. Ein Lernvorgang, der eine Anderung einzelner axio- 45 
matischer Verbindungen beziehungsweise einzelner 
Zellfunktionen beinhaltet ist auf Qblichen Bausteinen 
ebenso schlecht durchfuhrbar, wie der Aufbau groBer 
homogener und gleichzeitig flexibler Zellstrukturen. 
Die dynamische Umkonfigurierbarkeit ermoglicht erst- 50 
malig die optimale Simulation von Lernvorgangen. 

Die vorliegende Erfindung wird im folgenden anhand 
der weiteren Figuren naher erlautert Insgesamt zeigen 

Fig. 1 ein Schaltsymbol fQr einen 8-Bit-Addierer; 

Fig. 2 ein Schaltsymbol fur einen aus acht 1 -Bit- Ad- 55 
dierern bestehenden 8-Bit-Addierer nach Fig. 1 ; 

Fig. 3 eine Iogische Struktur eines 1-Bit-Addierers 
entsprechend Fig. 2; 

Fig. 4 eine Zellenstruktur des 1-Bit-Addierers ent- 
sprechend Fig. 3; 60 

Fig. 5 einen der Zellenstruktur nach Fig. 1 entspre- 
chend aufgebauten 8-Bit-Addierer; 

Fig. 6 ein aus vier Zellen bestehendes unprogram- 
miertes SUBMACRO X (analog einem 1-Bit-Addierer 
gemaB Fig. 4 beziehungsweise Fig. 5) mit den erforder- 65 
lichen Leitungsanschlussen; 

Fig. 7 einen Teilausschnitt eines integrierten Schalt- 
kreises (Chip) mit einer Vielzahl von Zellen und einem 



separierten SUBMACRO X gemaB Fig. 6; 

Fig. 8 einen integrierten Schaltkreis (Chip) mit einer 
Orthogonalstruktur einer quasi beliebigen Vielzahl von 
Zellen und einer extern zugeordneten Ladelogik; 

Fig. 9 ein erstes Ausfflhrungsbeispie! einer Mehrzahl 
miteinander zu einem Rechenwerk gekoppelter inte- 
grierter Schaltkreise (DatenfluBprozessor) nach Fig. 8; 

Fig. 10 ein zweites Ausfflhrungsbeispiel einer Mehr- 
zahl miteinander zu einem Rechenwerk gekoppelter in- 
tegrierter Schaltkreise (DatenfluBprozessor) nach 
Fig. 8; 

Fig. 11 ein Ausfflhrungsbeispiel eines MACRO zur 
Addition zweier Zahlenreihen; 

Fig. 12 einen beispielhaften Aufbau einer Zelle mit 
Multiplexern zur Auswahl der jeweiligen Iogischen Bau- 
steine; 

Fig. 13 eine zum Beispiel mit einem Standard-TTL- 
Baustein 74148 ausgefflhrte Synchronisationslogik; 

Fig. 14 die Kaskadierung von vier DFPs, wobei die 
Verbindung zwischen den IO-Pins nur schematisch dar- 
gestellt sind (tatsachlich bedeutet eine gezeichnete Ver- 
bindung eine Mehrzahl von Leitungen); 

Fig. 15 die durch die Kaskadierung erreichte Homo- 
genitat; 

Fig. 1 6a die Struktur der E/A-Zellen, wobei die gioba- 
len Verbindungen nicht herausgefuhrt werden, 

Fig. 16b die Struktur der E/A-Zellen, jedoch mit her- 
ausgefflhrten globalen Verbindungen; 

Fig. 17a die aus Fig. 16a resultierende Kaskadierung, 
wobei eine Eckzelie, sowie die zwei mit ihr kommunizie- 
renden Treiberzellen der kaskadierten Bausteine (ver- 
gleiche hierzu Fig. 14) gezeichnet sind; 

Fig. 17b die aus Fig. 16b resultierende Kaskadierung, 
wobei eine Eckzelie, sowie die zwei mit ihr kommunizie- 
renden Treiberzellen der kaskadierten Bausteine (ver- 
gleiche hierzu Fig. 14) gezeichnet sind; 

Fig. 18a eine Multiplikationsschaltung (vergleiche 
Fig. 11a); 

Fig. 18b die interne Struktur des DFPs nach dem La- 
den (vergleiche Fig. lib); 

Fig. 19c die Arbeitsweise des DFPs im Speicher, so- 
wie die Zustande der Zahler 47, 49; 

Fig. 19 eine Kaskadenschaltung, wobei der Addierer 
aus Fig. 1 1 und der Multiplizierer aus Fig. 18 zur Steige- 
rung der Rechenleistung hintereinander geschaltet sind; 

Fig. 20 den stark schematisierten Aufbau eines her- 
kSmmlichen Rechners; 

Fig. 21 den mdglichen Aufbau desselben Rechners 
mit Hilfe eines Arrays aus kaskadierten DFPs; 

Fig. 22 einen Ausschnitt mit eingezeichneten (Lei- 
tungs-)Treibern eines DFPs. 

In Fig. 1 ist ein Schaltsymbol eines 8-Bit-Addierers 
dargestellt. Das Schaltsymbol besteht aus einem qua- 
dratischen Baustein 1 mit acht EingSngen A 0 . . . 7 fflr 
ein erstes Datenwort A und acht Eingangen B 0 ... 7 fur 
ein zweites (zu addierendes) Datenwort B. Die jeweils 
acht Eingange Ai, Bi werden erganzt durch einen weite- 
ren Eingang Oein uber den dem Baustein 1 gegebenen- 
falls ein Obertrag zugeleitet wird Der Baustein 1 hat 
funktions- und bestimmungsgemaB acht Ausgange S 0 
. . . 7 fflr binaren Summanden und einen weiteren Aus- 
gang Oaus fur den gegebenenfalls bestehenden Ober- 
trag. 

Das in Fig. 1 dargestellte Schaltsymbol ist in Fig. 2 als 
Anordnung sogenannter SUBMACROS dargestellt 
Diese SUBMACROS 2 bestehen je aus einem 1-Bit-Ad- 
dierer 3 mit je einem Eingang fur die entsprechenden 
Bits des Datenworts und einem weiteren Eingang fur ein 
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Obertragsbit Die 1-Bit-Addierer 3 weisen dariiberhin- Fig. 4) bestehende Untereinheit zu betrachten ist 

aus einen Ausgang fur den Summanden und einen Aus- Das in Fig. 5 separierte SUBMACRO W X" ist in Fig. 6 

gang fur den Obertrag Oaus auf. als Teil eines integrierten Schaltkreises (Chip) 20 ge- 

In Fig. 3 ist die binare Logik eines 1-Bit-Addierers meinsam mit Leitungs- und Datenanschlussen darge- 

beziehungsweise eines SUBM ACROS 2 nach Fig. 2 dar- 5 steilt Das SUBMACRO n X M besteht aus den vier Zellen 

gestellt Analog zu Fig. 2 weist diese Schaltlogik je ei- 10 die entsprechend der orthogonalen Struktur je Seite 

nen Eingang Ai, Bi fur die konjugierten Bits der zu vier Datenanschlusse (also insgesamt sechzehn Daten- 

verknQpfenden Daten auf; ferner ist ein Eingang Oein anschlQsse je Zelle) aufweisen. Die Datenanschliisse 

fur den Obertrag vorgesehen. Diese Bits werden den verbinden jeweils benachbarte Zellen, so daB ersichtlich 

dargestellten Verbindungen beziehungsweise VerknQp- io wird, wie beispielsweise eine Dateneinheit von Zelle zu 

fungen entsprechend in zwei ODER-Gliedern 5 und drei Zelle durchgeschleust wird. Die Ansteuerung der Zellen 

NAND-Gliedern 6 verknflpft, so daB am Auscangsan- 10 erfolgt einerseits uber sogenannte lokale Steuerun- 

schluB Si und am Ausgang fur den Obertrag Uaus die gen, das sind lokale Leitungen, die mit alien Zellen ver- 

einem Volladdierer entsprechenden Verknupfungser- bunden sind, und andererseits uber sogenannte globale 

gebnisse (Si, Oaus) anstehen. 15 Leitungen, d. h. Leitungen, die Qber den gesamten inte- 

Die Erfindung setzt da ein, wo es - wie in Fig. 4 grierten Schaltkreis (Chip) 20 gefahrt sind. 

dargestellt - darum geht, das in Fig. 3 gezeigte SUB- In Fig. 7 ist ein vergroBerter Ausschnitt eines inte- 

MACRO 2 oder eine oder mehrere beliebige Funk- grierten Schaltkreises 20 dargestellt, der mit einem or- 

tion(en) in geeigneter Weise in einer Zellstruktur zu thogonalen Raster von Zellen 10 belegt ist Wie in Fig. 7 

implementieren. Dies geschieht auf der Grundlage Io- 20 angedeutet kann so zum Beispiel eine Gruppe von vier 

gisch und strukturell identischer Zellen 10, deren einzel- Zellen 10 als SUBMACRO "X" ausgewahlt und dem 

ne logische Bausteine der auszufQhrenden VerknQp- 1-Bit-Addierer entsprechend Fig. 4 gemaB program- 

fungsfunktion entsprechend miteinander gekoppelt miert beziehungsweise konfiguriert werden. 

werden, und zwar mittels der noch zu beschreibenden Ein vollstandiger integrierter Schaltkreis (Chip) 20 ist 

Ladelogik. GemaB der in Fig. 4 gezeigten, von der 25 in Fig. 8 dargestellt Dieser integrierte Schaltkreis 20 

Schaltlogik nach Fig. 3 abgeleiteten Verknupfungslogik besteht aus einer Vielzahl im orthogonalen Raster ange- 

fQr einen 1-Bit-Addierer sind je zwei Zellen 10.1, 10.2 ordneter Zellen 10 und weist an seinen AuBenkanten 

beziiglich der logischen Bausteine insoweit gleich, daB eine entsprechende Anzahl von LeitungsanschlQssen 

jeweils ein ODER-Glied 5 und ein NAND-Glied 6 akti- (Pins) auf, Uber die Signale, insbesondere Ansteuersi- 

viert sind. Eine dritte Zelle 10.3 wird nur als Leitungszel- 30 gnale und Daten zugefQhrt und weitergeleitet werden 

le (Leiterbahnzelle) benutzt und die vierte Zelle 10.4 ist konnen. In Fig. 8 ist wiederum das SUBMACRO °X n 

beziiglich des dritten NAND-Gliedes 6 aktiv geschaltet gemaB Fig.5/Fig.6 abgegrenzt; daruberhinaus sind 

Das aus den vier Zellen 10.1 . . . 10.4 bestehende SUB- auch weitere SUBMACROS separiert, die spezifischen 

MACRO 2 steht somit stellvertretend fiir einen 1-Bit- Funktionen und Vernetzungen entsprechend zu Unte- 

Addierer, d.h. ein 1-Bit-Addierer einer Datenverarbei- 35 reinheiten zusammengefaBt sind. Dem integrierten 

tungseinrichtung gemaB der vorliegenden Erfindung Schaltkreis (Chip) 20 ist eine Ladelogik 30 zugeordnet 

wird uber vier entsprechend programmierte (konfigu- beziehungsweise ubergeordnet, uber die der integrierte 

rierte) Zellen 10.1 . . . 10.4 verifiziert (Der Vollstandig- Schaltkreis 20 programmiert und konfiguriert wird. Die 

keit halber soli angemerkt werden, daB die einzelnen Ladelogik 30 teilt letztlich dem integrierten Schaltkreis 

Zellen ein erheblich umfangreicheres Netzwerk von lo- 40 20 mit, wie er arithmetisch-logisch zu arbeiten hat Be- 

gischen Bausteinen, sprich Verknupfungsgliedern, und zugnehmend auf die Fig. 1 bis 5 ist in Fig. 8 einerseits 

Invertern aufweist, die jeweils dem aktuellen Befehl der das SUBMACRO "X" entsprechend Fig. 4 und Fig. 5 

Ladelogik zufolge aktiv geschaltet werden konnen. Ne- hervorgehoben; andererseits ist auch ein MACRO "Y" 

ben den logischen Bausteinen ist auch ein dichtes Netz entsprechend Fig. 1 und Fig. 2 angezeichnet, das als Ein- 

von Verbindungsleitungen zwischen den jeweils be- 45 heit einem 8-Bit- Addierer entspricht 

nachbarten Bausteinen und zum Aufbau von zeilen- und Anhand von Fig. 9 beziehungsweise Fig. 10 soli im 

spaltenweisen Busstrukturen zur Datenubertragung an- folgenden eine Rechnerstruktur beschrieben werden, 

dererseits vorgesehen, so daB uber eine entsprechende die auf den im vorstehenden definierten und erlauterten 

Programmierung seitens der Ladelogik quasi beliebige integrierten Schaltkreis 20 auf baut 

logische Verknupfungsstrukturen implementiert wer- 50 GemaB dem in Fig. 9 dargestellten ersten Ausfuh- 

den konnen). rungsbeispiei ist - analog zur Anordnung der Zellen — 

Der VoUstandigkeit halber ist in Fig. 5 der Zellenauf- im Orthogonalraster eine Mehrzahl von integrierten 

bau eines 8-Bit- Addierers in seiner Gesamtheit darge- Schaltkreisen 20 angeordnet, deren jeweils benachbarte 

steilt Die in Fig. 5 gezeigte Struktur entspricht insoweit uber lokale BUS-Leitungen 21 miteinander gekoppelt 

der nach Fig. 2, wobei die in Fig. 2 symbolisch als SUB- 55 beziehungsweise vernetzt sind. Die — beispielsweise 

MACROS 2 dargestellten 1-Bit-Addierer jeweils durch aus sechzehn integrierten Schaltkreisen 20 bestehende 

eine vier-zellige Einheit 10.1 . . . 10.4 ersetzt sind Bezo- - Rechnerstruktur weist Ein-/Ausgangsleitungen IO 

gen auf den erfindungsgemaBen DatenfluBprozessor auf, uber die der Rechner quasi mit der AuBenwelt in 

bedeutet dies, daB zweiunddreiBig Zellen der zur VerfQ- Verbindung steht, d. h. korrespondiert Der Rechner ge- 

gung stehenden Gesamtheit von Zellen einer zellular 60 maJ3 Fig. 9 weist ferner einen Speicher 22 auf, der dem 

mit logisch identischem Layout gefertigten Schaltungs- dargestellten Ausfuhrungsbeispiel entsprechend aus 

platine seitens der Ladelogik so angesteuert und konfi- zwei separierten Speichern. zusammengesetzt aus je- 

guriert beziehungsweise programmiert werden, daB weils RAM, ROM sowie einem Dual-Ported RAM als 

diese zweiunddreiBig Zellen ein 8-Bit- Addierer bilden. shared memory zu der Ladelogik geschaltet, besteht, die 

In der Darstellung nach Fig. 5 ist uber eine strich- 65 gleichermaBenalsSchreib-Lese-Speicher oder auch nur 

punktierte Umrahmung ein SUBMACRO "X" zeichne- als Lese-Speicher realisiert sein kdnnen. Der soweit be- 

risch separiert, das letztlich als aus vier einem l-Bit-Ad- schriebenen Rechnerstruktur ist die Ladelogik 30 zu- 

dierer entsprechend programmierten Zellen (10 gemaB beziehungsweise ubergeordnet mittels der die inte- 
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grierten Schaltkreise (DatenfluBprozessor) 20 program- die abzuspeichernden Additionsergebnisse erganzt. Die 

miert und konfiguriert und vernetzt werden. AdreBschaltung 46 besteht ihrerseits aus drei MACROS 

Die Ladelogik 30 baut auf einem Transputer 31, d h. 1 (gemaB Fig. 1) zur Bildung der AdreBdaten, wobei 
einem Prozessor mit mikrocodiertem Befehlssatz auf, diese MACROs 1 wie folgt geschaltet sind: Ober jeweils 

dem seinerseits ein Speicher 32 zugeordnet ist. Die Ver- 5 einen Eingang werden die zu verknupfenden Adressen 

bindung zwischen dem Transputer 31 und dem Daten- for An, Bn, Cn zugefuhrt Diese Adressen werden mit 

fluBprozessor basiert auf einer Schnittstelle 33 fur die den Ausgangssignalen eines Zahlers 47 addiert und mit 

sogenannten Ladedaten, d. h. die Daten die den Daten- der Statemachine 45 so verknupft, daB am Ausgang die 

fluBprozessor aufgabenspezifisch programmieren und neue Zieladresse ansteht. Der Zahler 47 und der Kom- 
konfigurieren und einer Schnittstelle 34 fur den bereits 10 parator 48 haben dabei die Aufgabe sicherzustellen, daB 

genannten Rechnerspeicher 22, d h. den Shared-Memo- jeweils die richtigen Summanden verknupft werden und 

ry-Speicher. daB jeweils am Ende der Zahlenreihen, d h. bei n = 9 

Die in Fig. 9 dargestellte Struktur stellt so einen kom- abgebrochen wird Ist die Addition vollendet, so wird in 

pletten Rechner dar, der fiber die Ladelogik 30 jeweils der Zeitsteuerung 45 ein STOP-Signal generiert und die 

fall- beziehungsweise aufgabenspezifisch programmiert 15 Schaltung passiv geschaltet Ebenso kann das STOP-Si- 

und konfiguriert werden kann. Der Voilstandigkeit hal- gnal als Eingangssignal fur eine Synchronisations-Schal- 

ber sei noch angemerkt, daB - wie in Verbindung mit tung verwendet werden, indem die Synchronisationslo- 

der Ladelogik 30 uber Pfeile angedeutet - mehrere gik anhand dieses Signals erkennen kann, daB die Ge- 

dieser Rechner vernetzt, d. h. miteinander gekoppelt samtfunktion "Addieren" gemaB dem nachfolgend be- 

werden kdnnen. 20 schriebenen ML1 Programm beendet ist und die M A- 

Ein weiteres Ausfiihrungsbeispiel einer Rechner- CROs somit durch neue ersetzt werden kdnnen (zum 

struktur ist in Fig. 10 dargestellt Im Unterschied zu Beispiel konnte STOP das Signal Sync5 sein). 

Fig. 9 sind dabei neben den lokalen BUS-Leitungen zwi- Der Zeitablauf in der Zeitsteuerung 45 (STATEMA- 

schen den benachbarten integrierten Schaltkreisen 20 CHINE) laBt sich dabei wie folgt darstellen, wobei noch 

noch Obergeordnete zentrale BUS-Leitungen 23 vorge- 25 anzumerken ist, daB in der Zeitsteuerung 45 eine Verzo- 

sehen, urn zum Beispiel spezifische Ein- beziehungswei- gerungszeit T (in Form von Taktzyklen) zwischen der 

se Ausgangsprobleme iosen zu konnen. Auch der Spei- AdreBgenerierung und dem Datenerhalt implementiert 

cher 22 (Shared-Memory) ist fiber zentrale BUS-Leitun- ist: 
gen 23 mit den integrierten Schaltkreisen 20 verbunden, 

und zwar wie dargestellt jeweils mit Gruppen dieser 30 - Im Zyklus 1 wird jeweils der Zahler 47 urn 1 

integrierten Schaltkreise. Die in Fig. 10 dargestellte erhflht und im Komparator 48 wird gepruft, ob n > 

Rechnerstruktur weist die gleiche Ladelogik 30 auf, wie 9 erreicht ist; synchron zu diesen Operationen wer- 

sie anhand von Fig. 9 eriautert wurde. den die Adressen fur A, B, C berechnet; 

In Verbindung mit Fig. 11a soil eine auf erfindungsge- - im Zyklus (T + 1) werden die Summanden A, B 

maBen DatenfluBprozessoren aufgebaute Additions- 35 ausgelesen und addiert; 

schaltung eriautert werden. Ausgegangen wird von zwei — im Zyklus (T + 2) wird die Summe C abgespei- 

Zahlenreihen An und Bn fOr samtliche n zwischen 0 und chert 
9; die Aufgabe besteht darin, die Summe Ci «*= Ai + Bi 

zu bilden, wobei der Index i die Werte 0 <=n < 9 anneh- Mit anderen Worten heiflt dies, daB die Operations- 
men kann. 40 schleife und die eigentliche Addition gerade ( T + 2) 

Bezugnehmend auf die Darsteilung nach Fig. 11a ist Taktzyklen erfordert Im allgemeinen sind far T 2 ... 3 

die Zahlenreihe An in einem ersten Speicher RAMI Takte erforderlich, so daB verglichen mit den herkflmm- 

abgespeichert und zwar zum Beispiel ab einer Speicher- lichen Prozessoren (CPU), die im allgemeinen 50 bis 

adresse lOOOh; die Zahlenreihe Bn ist in einem Speicher mehrere 100 Taktzyklen bedingen, eine ganz wesentli- 

RAM2 an einer Speicheradresse OdfaOh abgespeichert; 45 cheRechenzeit-Reduzierungmoglich wird 

die Summe Cn wird in den RAMI eingeschrieben und Die anhand von Fig. 11 aufgezeigte Konfiguration 

zwar unter der Adresse lOOah. soli im folgenden uber eine hypothetische MACRO- 

Es ist ein weiterer Zahler 49 zugeschaltet, der ledig- Sprache ML1 nochmals eriautert werden: 

lich die einzelnen durch die Steuerschaltung freigegebe- Es existieren die Zahlenreihen An und Bn 

nen Taktzyklen hochzahlt. Dies soil im Weiteren zur 50 

Verdeutlichung der Umkonfigurierbarkeit einzelner Vn:0<=n<=9 
MACROs ohne Beeinflussung der an der Umkonfigurie- 

rung nicht beteiligten MACROs dienen. " Es sollen die Summen Ci = Ai + Bi mit I e N gebildet 

Fig. 11a zeigt zunachst die eigentliche Additions- werden. 

schaltung 40, die aus einem ersten Register 41 zur Auf- 55 const n = 9; 

nahme der Zahlenreihe An und einem zweiten Register array A [n] in RAM [1] at lOOOh; 

42 zur Aufnahme der Zahlenreihe Bn besteht. Den bei- array B [n] in RAM [2] at OdfaOh; 

den Registern 41/42 ist ein 8-Bit-Addierer entsprechend array C [n] in RAM [1] at lOOah; 

dem in Fig. 1 dargestellten MACRO 1 nachgeschaltet for i - 0 to n with (A [i] , B [i] , C [i]) 

Der Ausgang des MACRO 1 fQhrt uber eine Treiber- eo Al; 

schaltung 43 zurQck zum Speicher RAMI. Die Takt- C - Al - A + B; 

beziehungsweise Zeitsteuerung der Additionsschaltung next; 

40 erfolgt uber eine von einem Taktgenerator T ange- RAMI ist der 1. Speicherblock 

steuerte Zeitsteuerung (STATEMACHINE) 45, die mit RAM2 ist der 2. Speicherblock 

den Registern 41, 42 und der Treiberschaltung 43 ver- 65 at folgt die Basisadresse der Arrays 

bunden ist for ist der Schleifenbeginn 

Die Additionsschaltung 40 wird funktional durch eine next ist das Schleifenende 

AdreBschaltung 46 zur Generierung der AdreBdaten fur with ( ) folgen die Variables deren Adressen durch die 
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Zahlvariable i bestimmt werden 

A T folgt die Verzdgerungszeit fur eine Statemachine in 

Taktzyklen. 

Das Timing der Statemachine sieht demnach folgen- 
dermaBenaus: 

Zyklus Aktivitat 



1 



T+ 1 
T + 2 



Zahler erhohen, Vergleich auf > 9(ja 
Abbruch) und Adressen fiir A, B, C, 
berechnen 

A, B, holen und addieren 
Nach C speichern 



Vn:0<*n<=9 



ablaufs von 19 auf 29 hochliiuft (Hiermit soil das dyna- 
mische unabhangige Umladen demonstriert werden, in 
jedem bisher bekannten Baustein wilrde der Zahler er- 
neut von 0 auf 9 laufen, da er zuruckgesetzt wird). 

5 Bei naherer Betrachtung des Problems stellt sich die 
Frage, warum nicht beide Operationen, die Addition 
und die Multiplikation in einem Zyklus durchgefuhrt 
werden, also die Operation: 
Es existieren die Zahlenreihen An und Bn, wobei An 

io durch das Ergebnis von Cn des vorher ausgeftlhrten 
Programms gegeben ist: 



Das heiBt — wie bereits erwahnt — die Schleife und die 
Addition benotigen gerade einmal T + 2 Taktzyklen. 

Fig. lib zeigt den groben Aufbau der einzelnen 
Funktionen (MACROs) in einem DFP. Die MACROs 
sind in ihrer etwaigen Lage und Gr6Be eingezeichnet 20 
und mit den anhand von Fig. 11a erlauterten entspre- 
chenden Nummern versehen. 

Fig. 1 lc zeigt den groben Aufbau der einzelnen Funk- 
tionen auf die RAM-Blocke 1 und 2: Die Summanden 
werden nacheinander in aufsteigender Reihenfolge aus 25 
den RAM«Bl6cken I und 2 ab Adresse lOOOh bezie- 
hungsweise OdfaOh gelesen und in RAM-Block 1 ab 
Adresse lOOah gespeichert Zudem sind die Zahler 47 
und 49 gegeben, beide zahlen wahrend des Ablaufs der 
Schaltungvon0bis9. 30 

Nach Beendigung des beschriebenen Programms soli 
ein neues Programm geladen werden, das die Ergebnis- 
se weiterverwertet. Die Umladung soil zur Laufzeit er- 
folgen. Das Programm ist im Folgenden gegeben: 

Es existieren die Zahlenreihen An und Ba wobei An 35 
durch das Ergebnis Cn des vorher ausgefuhrten Pro- 
gramms gegeben ist: 



40 



Es sollen die Produkte Ci« Ai * Bi mit I e N gebildet 
werden. 
const n =9 

array A[n] in RAM[1] at lOOah 

array B[n] in RAM[2] at OdfaOh 45 
array C[n] in RAM[1] at 1015h 
for i - 0 to n with (Ap] , Bp] , cp]) 
Al; 

C- A1=A»B; 

next; 50 
Die Beschreibung der einzelnen Befehle ist bereits be- 
kannt," 

• symbolisiert die Multiplikation. 

Die MACRO-Struktur ist in Fig. 18a beschrieben, 55 
Fig. 18b gibt in bekannter Weise die Lage und GroBe 
der einzelnen MACROs auf dem Chip an, besonders zu 
beachten ist die GrdBe des Multiplizierers 2 in Vergleich 
zu Addierer 1 aus Fig. lib. In Fig. 18c ist erneut die 
Auswirkung der Funktion auf den Speicher aufgezeigt, so 
Zahler 47 zahlt erneut von 0 bis 9, d. h. er wird beim 
Nachladen der MACROs zuruckgesetzt. 

Besonders zu beachten ist der Zahler 49. Angenom- 
men, das Umladen der MACROs betragt 10 Taktzyklen. 
Dann lauft der Zahler 49 von 9 auf 19, da der Baustein 65 
dynamisch umgeladen wird, d. h. nur die umzuladenden 
Teile werden gestoppt, der Rest arbeitet weiter. Das 
fuhrt nun dazu, daB der Zahler wahrend des Programm- 



Vn:0«n<=9 

Es sollen die Produkte Ci=(Ai + Bi) • Bi mit I € N ge- 
bildet werden. 
path D; 
const n = 9; 

array A[n] in RAM[1] at lOOOh 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAM[1] at lOOah 
for i - 0 to n with ( A[i] , B[i] , Cp]) 
Al; 

D=A1 =AbB; 
C=A1«D*B; 
next; 

path D definiert einen internen nicht aus den DFP 
herausgefuhrten Doppelpfad Die Operation benGtigt 
wegen einem zusatzlichen Al einen Taktzyklus mehr als 
vorher, ist insgesamt jedoch schneller als die beiden 
obigen Programme in Folge ausgefOhrt, da zum einen 
die Schleife nur einmal durchlaufen wird, zum zweiten 
nicht umgeladen wird. 

Prinzipiell kdnnte das Programm auch so formuliert 
werden: 
const n« 9; 

array A[n in RAM[1] at lOOOh 
array B[n] in RAM[2] at OdfaOh 
array C[n] in RAMp] at lOOah 
for i = 0 to n with (Ap], BpJ Qi]) 
A- 1; 

C«A2=(A + B)»B; 
next; 

Sind die Gatterlaufzeiten des Addierers und des Mul- 
tiplizierers zusammen kleiner als ein Taktzyklus, kann 
die Operation (A + B) • B auch in einem Taktzyklus 
durchgefOhrt werden, was zu einer weiteren erhebli- 
chen Geschwindigkeitssteigerung fuhrt: 
const n» 9; 

array A[n] in RAM[1] at lOOOh 
array B[n] in RAM[2] at OdfaOh 
array qn] in RAM[1] at lOOah 
f or i « 0 to n with (ApJ BpJ Cp]) 
Al; 

C=A1~(A + B)"B; 
next; 

Anhand von Fig. 12 soli ein einfaches Beispiel eines 
Zellenaufbaus eriautert werden. Die Zelle 10 umfaBt 
zum Beispiel ein UND-Glied 51, ein ODER-Glied 52, ein 
XOR-Glied 53, einen Inverter 54 sowie eine Register- 
zelle 55. Die ZeUe 10 weist darUberhinaus eingangsseitig 
zwei Multiplexer 56, 57 mit (den sechzehn Eingangen 
der Zelle entsprechend Fig. 6) zum Beispiel je sechzehn 
Eingangsanschlflssen INI, IN2 auf. Ober diesen 
(16 : 1)-Multiplexer 56/57 werden jeweils die den ge- 
nannten logischen Gliedern UND, ODER, XOR 51 ... 
53 zuzufuhrenden Daten ausgewahlt. Diese logischen 
Glieder sind ausgangsseitig mit einem (3 : 1)-Multiple- 
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xer 58 gekoppelt, der seinerseits mit dem Eingang des 
Inverters 54, einem Eingang der Registerzelle 55 und 
einem weiteren (3 : 16)-Multiplexer 59 gekoppelt ist 
Der letztgenannte Multiplexer 59 ist zusatzlich mit dem 
Ausgang des Inverters 54 und einem Ausgang der Regi- 5 
sterzelle 55 verbunden und gibt das Ausgangssignal 
OUTab. 

Der Vollstandigkeit halber sei angemerkt, daB die Re- 
gisterzelle 55 mit einem Reset-Eingang R und einem 
Takteingang gekoppelt ist " 10 

Dem im vorstehenden erlauterten Zellenaufbau, d h. 
der Zelle 10 ist nun eine Ladelogik 30 ubergeordnet, die 
mit den Multiplexern 56, 57, 58 und 59 verbunden ist und 
diese den gewllnschten Funktionen entsprechend an- 
steuert. 15 

Sollen zum Beispiel die Signale A2 mit B5 verundet 
werden, so werden die Multiplexer 56, 57 den Leitungen 
"ZWEI" beziehungsweise TONF entsprechend aktiv 
geschaltet; die Summanden gelangen dann zum UND- 
Glied 51 und werden bei entsprechender Aktivierung 20 
der Multiplexer 58, 59 am Ausgang OUT abgegeben. 
Soli zum Beispiel eine NAND-Verknupfung durchge- 
fuhrt werden, so schaltet der Multiplexer 58 zum Inver- 
ter 54 und am Ausgang OUT steht dann das negierte 
UND-Ergebnisan. 25 

Patentansprfiche 

1. Datenverarbeitungseinrichtung, wobei ein (im 
folgenden DatenfluBprozessor — DFP — genann- 30 
ter) integrierter Schaltungskreis (Chip) mit einer 
Vielzahl insbesondere orthogonal zueinander an- 
geordneter homogen strukturierter Zellen mit je 
einer Mehrzahi jeweils logisch gleicher und struk- 
turell identisch angeordneter Bausteine vorgese- 35 
hen ist, dessen Zellen zeilen- und spaltenweise, ge- 
gebenenfalls gruppenweise zusammengefaflt, mit 
EuWAusgangsanschlfissen des integrierten Schalt- 
kreises verbunden sind, dadurch gekennzeichnet, 
daB den Zellen eine Ladelogik zugeordnet ist, fiber 40 
die sie je fiir sich und gegebenenfalls gruppenweise 
zusammengefaBt so programmierbar (konfigurier- 
bar) sind, daB beliebige logische Funktionen und/ 
oder Vernetzungen untereinander verifizierbar 
sind, und zwar derart, daB eine Manipulation der 45 
DFP-Konfiguration wahrend des Betriebes (oder 
zur Laufzeit), d. h. die Modifikation funktioneller 
Teile (MACROS) des DFPs erfolgen kann, ohne 
daB andere funktionelle Teile angehalten werden 
mussen oder in ihrer Funktion beeintrachtigt wer- 50 
den. 

2. Datenverarbeitungseinrichtung nach Anspruch 1, 
dadurch gekennzeichnet, daB die Ladelogik mit 
Speichermitteln gekoppelt ist, fiber die die Konfi- 
guration der Zellen spezif izierbar ist. 55 

3. Datenverarbeitungseinrichtung nach einem der 
Anspruche 1 bis 2, dadurch gekennzeichnet, daB die 
Ladelogik aus einem Prozessor besteht, der den 
gesamten Programmabiauf auf der Grundlage von 

in verschiedenen Speichern abgelegten Daten und 60 
Programmen im Sinne einer Harvard-Struktur ver- 
waltet. 

■ 4. Datenverarbeitungseinrichtung nach Anspruch 3, 
dadurch gekennzeichnet, daB die Ladelogik ihrer- 
seits aus Zellen mit je einer Mehrzahi jeweils lo- 65 
gisch gleicher und strukturell identisch angeordne- 
ter Bausteine aufgebaut ist. 
5. Datenverarbeitungseinrichtung nach einem der 
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Ansprtiche 1 oder 4, dadurch gekennzeichnet, daB 
die Zellen dynamisch wahrend eines Programmab- 
laufs umkonfigurierbar sind, ohne daB die zu bear- 
beitenden Daten selbst beeinfluBt werden. 

6. Datenverarbeitungseinrichtung, wobei ein (im 
folgenden DatenfluBprozessor — DFP — genann- 
ter) integrierter Schaltungskreis (Chip) mit einer 
Vielzahl insbesondere orthogonal zueinander an- 
geordneter homogen strukturierter Zellen mit je 
einer Mehrzahi jeweils logisch gleicher und struk- 
turell identisch angeordneter Bausteine vorgese- 
hen ist, dessen Zellen zeilen- und spaltenweise, ge- 
gebenenfalls gruppenweise zusammengefaBt, mit 
EuWAusgangsanschlfissen des integrierten Schalt- 
kreises verbunden sind, dadurch gekennzeichnet, 
daB eine Mehrzahi von ihnen in Kaskadenform 
koppelbar sind. 

7. Datenverarbeitungseinrichtung nach einem der 
AnsprQche 1 bis 6, gekennzeichnet durch, die Zu- 
ordnung geeigneter Daten- Ein-/Ausgabe-Einhei- 
ten und mindestens eines Speichers zum Aufbau 
eines (komplexen, kompletten) Rechenwerks. 

8. Datenverarbeitungseinrichtung nach einem der 
Ansprfiche 1 bis 7, dadurch gekennzeichnet, daB die 
Funktionen der Ein-/Ausgabeeinheiten partiell im 
integrierten Schaltkreis (Chip) implementierbar 
sind. 
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